腾讯混元推出交互式AI播客,用户可在收听时随时打断提问
除交互式播客能力,混元AI播客现已支持用户对播客风格(提供默认模式、深度探索、思辨讨论三种模式)、主持人数(提供单人播客、双人对谈两种模式)以及播客音色(提供8种不同性别、年龄段与人设特点的音色)进行自主选择,支持快速进行播客内容创作。
除交互式播客能力,混元AI播客现已支持用户对播客风格(提供默认模式、深度探索、思辨讨论三种模式)、主持人数(提供单人播客、双人对谈两种模式)以及播客音色(提供8种不同性别、年龄段与人设特点的音色)进行自主选择,支持快速进行播客内容创作。
10月29日,腾讯混元宣布推出国内首个交互式AI播客,打破了传统播客单向收听模式。用户在收听时可随时打断主持人和嘉宾的发言,通过语音或者打字的方式提问。基于大模型意图识别、长上下文理解、多轮对话和外部联网检索能力,交互式AI播客能够结合上下文更加准确地给出答案
腾讯混元重磅推出国内首个交互式AI播客。在该播客中,用户收听时可随时打断主持人与嘉宾发言,能以语音或打字形式提问。这一创新打破传统播客单向收听、无法实时互动的模式,带来更丰富体验,大幅提升用户通过播客获取信息的效率。
近日,腾讯混元AI播客推出全新功能,正式发布国内首个支持实时互动的AI播客体验。用户在收听过程中可随时通过语音或文字“举手”提问,打破传统播客单向传播的局限,实现边听边问的沉浸式交互。
腾讯混元推出交互式AI播客,用户可在收听播客的过程中,随时打断主持人和嘉宾的发言,通过语音或者打字的方式提问。此外,混元AI播客现已支持用户对播客风格、主持人数以及播客音色进行自主选择,支持快速进行播客内容创作。
这项由腾讯混元基础模型团队完成的突破性研究发表于2025年9月,论文编号为arXiv:2509.23951v1。团队开发出了名为HunyuanImage 3.0的原生多模态模型,这是目前世界上最大、最强的开源图像生成模型。有兴趣深入了解技术细节的读者可以通过该
现有的3D生成算法通常会生成一体化的3D模型,而下游应用通常需要语义可分解的3D形状,即3D物体的每一个组件需要单独地生成出来。
腾讯正式推出“腾讯混元”独立微信小程序版本。继网页端之后,这一举措为腾讯AI大模型产品开辟了又一关键入口。其核心目的在于进一步降低普通用户接触和使用混元大模型的难度,同时借助微信庞大流量推动用户数量增长。从当下功能布局情况来看,小程序版的腾讯混元采用轻量路线,
在32块H20硬件上训练10分钟就能“定调”,微调后的FLUX1.dev模型,人工评出来的真实感和美学分数直接涨了3倍多。
你有没有遇到过这种情况:AI生成的图像看起来评分很高,但人物五官奇怪、画面不真实,甚至颜色搭配也让人难以接受?
文本到图像生成技术近年来取得了令人瞩目的进展。从DALL-E,Midjourney,Stable Diffusion开始到如今的百花齐放,模型能够根据文本描述生成令人惊叹的图像。然而,一个长期存在的挑战是如何使这些生成的图像更好地符合人类审美偏好——不是技术上
当前的扩散模型虽然能通过奖励机制来贴合人类喜好,但存在两个问题:一是优化步骤少,容易出现 “奖励作弊”,也就是模型为了拿高分生成质量差的图;二是需要离线调整奖励模型才能达到好的美学效果,不够灵活。
近期有消息称,OpenAI著名研究者姚顺雨已经加入了腾讯混元大模型团队,他将在混元组建一支自己领导的研究团队,年薪达上亿元。9月12日,腾讯在其官方公众号辟谣称该消息为假消息。 据悉,上述传闻此前在AI圈引起不小的震动,这背后其实是大家对顶尖AI人才争夺战的关
混元图像2.1在2.0架构的基础上全面升级,更加注重生成效果与性能之间的平衡。新版本不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成。同时,在生成图片的整体美学表现和适用场景的多样性方面,都有了显著提升。
据了解,Hunyuan-MT-7B于9月1日开源,其总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。